当前位置: 开发笔记 > 编程语言 > 正文

杜绝|时会_如何杜绝sparkhistoryserverui的未授权访问?

作者：mobiledu2502929697 | 来源：互联网 | 2023-08-31 15:26

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何杜绝sparkhistoryserverui的未授权访问?相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何杜绝 spark history server ui 的未授权访问?相关的知识，希望对你有一定的参考价值。

如何杜绝 spark history server ui 的未授权访问?
1 问题背景

默认状况下&＃xff0c;Spark history Sever ui 是没有任何访问控制机制的&＃xff0c;任何用户只要知道 shs 对应的 url&＃xff0c;就可以访问链接查看 spark 作业的运行状况。

在证券基金银行等金融行业中&＃xff0c;客户大都对信息安全有着较靠的要求&＃xff0c;上述未授权访问的情况肯定是要杜绝的。那么如何配置以杜绝上述对 shs ui 的未授权访问呢&＃xff1f;

2 开启 kerberos 的大数据集群环境中&＃xff0c;如何杜绝对 shs ui 的未授权访问&＃xff1f;

在信息安全要求较高的环境中&＃xff0c;我们推荐开启大数据集群的 kerberos 安全认证&＃xff0c;从而对整个集群中的 hdfs/yarn/hive/hbase/kafka/zookeeper/spark 等服务提供认证保护。

此时这些服务如 hdfs/yarn/hive/hbase/kafka/zookeeper/spark 等的客户端&＃xff0c;在使用 rpc 协议访问服务端时&＃xff0c;只有在经过 kerberos 认证后才能访问成功&＃xff1b;
在访问这些服务的 web ui 时&＃xff0c;比如 namenode/resourceManager/hive hs2/spark History Server 等的 web ui&＃xff0c;此时客户使用的客户端工具是 web 浏览器&＃xff0c;此时为对使用浏览器基于 http/https 访问 web UI 的用户进行身份验证&＃xff0c;可以在服务端配置是否启用 spnego&＃xff08;spnego 底层基于 kerberos)&＃xff1b;
当没有启用 spnego 对访问 HTTP Web 控制台的用户进行身份验证时&＃xff0c;任何用户都可以在不经过 kerberos 认证的情况下访问 webui;
当启用 spnego 对访问 HTTP Web 控制台的用户进行身份验证时&＃xff0c;用户只有在成功通过了 kerberos 认证拿到了 ticket 后&＃xff0c;才能成功访问对应服务的 web ui&＃xff08;需要在浏览器中做相应配置&＃xff09;&＃xff1b;
可以手动在服务端后台配置文件中&＃xff0c;通过一系列的参数配置是否启用对 hdfs/yarn/hive/spark 等服务的 web ui 的 spnego 身份验证&＃xff1b;
在 CDH 中&＃xff0c;可以通过 cm web ui 白屏化操作&＃xff0c;以开启或关闭对 hdfs/yarn/hive/spark 等服务的 web ui 的 spnego 身份验证&＃xff0c;“启用 HTTP Web 控制台的 Kerberos 身份验证”&＃xff0c;如下所示&＃xff1a;

结合配置以下参数&＃xff0c;即可控制对 SHS UI 的授权访问&＃xff1a;

spark.history.ui.acls.enable&＃61;true spark.history.ui.admin.acls&＃61;spark spark.history.ui.admin.acls.groups

此时&＃xff0c;通过浏览器访问 shs web ui 时,在没有经过 kerberos 安全认证时&＃xff0c;就会报类似如下的错误&＃xff1a;

3 SHS UI 访问控制背后的实现机制

查阅官方文档可知&＃xff0c;Spark UI 的认证&＃xff0c;包括 shs ui 的认证&＃xff0c;使用的都是 servlet 过滤器&＃xff1b;
而 spark 本身并没有提供任何内置的认证过滤器, 大家需要根据自己的认证机制自己实现一个认证过滤器&＃xff0c;并配置参数 spark.ui.filters 使用该过滤器&＃xff1b;
参数 spark.ui.filters 可以配置多个过滤器&＃xff0c;以逗号隔开即开&＃xff1b;
注意参数 spark.authenticate&＃xff1a;该参数控制 Spark 内部各个进程进行 rpc 通信时是否需要经过认证&＃xff0c;而不是控制用户访问 spark webui时是否需要经过认证&＃xff1b;
在配置了认证过滤器的基础上&＃xff0c;就可以通过配置参数 spark.acls.enable/spark.history.ui.acls.enable 分别对 spark/shs 的 webui 开启或关闭访问控制&＃xff1b;
访问控制列表具体包括三种&＃xff0c;即 view acl(只具有view权限),modify acl(只具有 Modify权限) 和 admin acl(具有view和modify权限)&＃xff1b;
配置访问控制列表时&＃xff0c;可以配置用户也可以配置用户组&＃xff1b;&＃xff08;支持配置逗号分隔的多个值&＃xff0c;也支持配置*通配符&＃xff09;&＃xff1b;
spark/shs webui的访问控制相关参数如下&＃xff1a;

spark.acls.enable spark.admin.acls spark.admin.acls.groups spark.modify.acls spark.modify.acls.groups spark.ui.view.acls spark.ui.view.acls.groups spark.user.groups.mapping spark.history.ui.acls.enable spark.history.ui.admin.acls spark.history.ui.admin.acls.groups

Hadoop 提供了一个 servlet 认证过滤器&＃xff0c;即 org.apache.hadoop.security.authentication.server.AuthenticationFilter&＃xff0c;和一个可以配套使用的 spnego 认证机制的实现类&＃xff0c;即 org.apache.hadoop.security.authentication.server.KerberosAuthenticationHandler&＃xff1b;

在开启 kerberos 的大数据集群环境中&＃xff0c;为实现对 shs ui 的访问控制&＃xff0c;背后即可配置使用上述 hadoop 提供的认证过滤器和spnego 认证实现类&＃xff1b;
在 CDH/CDP 环境中&＃xff0c;可以通过查看 shs 进程背后的配置文件&＃xff0c;确认其正是使用了上述访问控制机制&＃xff0c;和上述 hadoop 提供的认证过滤器和spnego 认证实现类&＃xff1a;

详细的配置参数如下&＃xff1a;

//通过以下配置项开启了 shs ui 的 spnego 认证 spark.ui.filters&＃61;org.apache.spark.deploy.yarn.YarnProxyRedirectFilter,org.apache.hadoop.security.authentication.server.AuthenticationFilter spark.org.apache.hadoop.security.authentication.server.AuthenticationFilter.param.type&＃61;kerberos spark.org.apache.hadoop.security.authentication.server.AuthenticationFilter.param.kerberos.principal&＃61;HTTP/uf30-3&＃64;CDH.COM spark.org.apache.hadoop.security.authentication.server.AuthenticationFilter.param.kerberos.keytab&＃61;spark_on_yarn.keytab spark.org.apache.hadoop.security.authentication.server.AuthenticationFilter.param.kerberos.name.rules&＃61;DEFAULT\\u000A //通过以下配置项&＃xff0c;开启了 shs ui 的访问控制列表 acl&＃xff0c;且配置了具体的 admin acl 为用户 spark 和用户组 spark spark.history.ui.acls.enable&＃61;true spark.history.ui.admin.acls&＃61;spark spark.history.ui.admin.acls.groups&＃61;spark //注意&＃xff0c;以下配置项是 shs 在 rpc 通讯时的 kerberos 相关配置&＃xff0c;这些配置影响的是 rpc 通信&＃xff0c;跟是否开启 httpspnego 认证无关 spark.history.kerberos.enabled&＃61;true spark.history.kerberos.principal&＃61;spark/uf30-3&＃64;CDH.COM spark.history.kerberos.keytab&＃61;spark_on_yarn.keytab //以下参数控制 Spark 内部各个进程进行 rpc 通信时是否需要经过认证&＃xff0c;跟是否开启 http spnego 认证无关 spark.authenticate&＃61;true/false
4 未开启 kerberos 的大数据集群环境中&＃xff0c;如何杜绝对 shs web ui 的未授权访问&＃xff1f;

在没有开启 kerberos 的大数据集群环境中&＃xff0c;对 shs ui 进行访问控制&＃xff0c;仍需要使用上述 servlet 认证过滤器和访问控制列表机制&＃xff1b;
由于 spark 本身并没有提供任何内置的认证过滤器, 大家需要根据自己的认证机制自己实现一个认证过滤器&＃xff0c;并配置参数 spark.ui.filters 使用该过滤器&＃xff1b;
事实上&＃xff0c;Hadoop 提供了一个 servlet 认证过滤器&＃xff0c;即 org.apache.hadoop.security.authentication.server.AuthenticationFilter&＃xff0c;和几个配套的认证机制的实现类&＃xff0c;b包括 PseudoAuthenticationHandler/KerberosAuthenticationHandler/LdapAuthenticationHandler/MultiSchemeAuthenticationHandler/JWTRedirectAuthenticationHandler&＃xff1b;
在没有开启 kerberos 的大数据集群环境中&＃xff0c;大家可以重点看下 hadoop 提供的 LdapAuthenticationHandler/JWTRedirectAuthenticationHandler 认证过滤器&＃xff0c;能否满足自己对 shs ui 认证的需要&＃xff1b;
如果上述 hadoop 提供的认证过滤去不满足自己对 shs ui 认证的需要&＃xff0c;大家需要根据自己的认证机制自己实现一个认证过滤器&＃xff1b;
笔者在此提供一个简单的认证过滤器&＃xff0c;该过滤器&＃xff1b;

import org.apache.commons.codec.binary.Base64; import org.apache.commons.lang3.StringUtils; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import javax.servlet.*; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import java.io.IOException; import java.io.UnsupportedEncodingException; import java.util.StringTokenizer; /* 该类是一个简单的 servlet 安全过滤器&＃xff0c;可以配置 spark history server web ui 使用该安全过滤器&＃xff0c;以实现基本的访问控制需要配合以下参数一起使用&＃xff1a; spark.ui.filters&＃xff0c;spark.history.ui.acls.enable&＃xff0c; spark.history.ui.admin.acls&＃xff0c;spark.history.ui.admin.acls.groups */ public class BasicAuthenticationFilter implements Filter /** Logger */ private static final Logger LOG &＃61; LoggerFactory.getLogger(BasicAuthenticationFilter.class); private String username &＃61; ""; private String password &＃61; ""; private String realm &＃61; "Protected"; /* 该方法使用指定的参数初始化该安全过滤器具体参数包括&＃xff1a; 用户名 username 密码 password 安全域 realm */ &＃64;Override public void init(FilterConfig filterConfig) throws ServletException username &＃61; filterConfig.getInitParameter("username"); password &＃61; filterConfig.getInitParameter("password"); realm &＃61; filterConfig.getInitParameter("realm"); if ( StringUtils.isBlank( username ) ) throw new ServletException( "No user provided in filter configuration" ); if ( StringUtils.isBlank( password ) ) throw new ServletException( "No password provided in filter configuration" ); if ( StringUtils.isBlank( realm ) ) throw new ServletException( "No realm provided in filter configuration" ); /* 该方法对 http 请求进行安全过滤&＃xff0c;具体过滤逻辑是&＃xff1a; 检查 http header 中 Authorization 是否为 Basic&＃xff0c;并提取 header 中的用户名和密码将 header 中提取的用户名和密码&＃xff0c;跟初始化该过滤器时使用的用户名和密码进行对比&＃xff0c;若一致则认证通过其他情况则认证失败 */ &＃64;Override public void doFilter(ServletRequest servletRequest, ServletResponse servletResponse, FilterChain filterChain) throws IOException, ServletException HttpServletRequest request &＃61; (HttpServletRequest) servletRequest; HttpServletResponse response &＃61; (HttpServletResponse) servletResponse; String authHeader &＃61; request.getHeader("Authorization"); if (authHeader !&＃61; null) StringTokenizer st &＃61; new StringTokenizer(authHeader); if (st.hasMoreTokens()) String basic &＃61; st.nextToken(); if (basic.equalsIgnoreCase("Basic")) try String credentials &＃61; new String(Base64.decodeBase64(st.nextToken()), "UTF-8"); LOG.debug("Credentials: " &＃43; credentials); int p &＃61; credentials.indexOf(":"); if (p !&＃61; -1) String _username &＃61; credentials.substring(0, p).trim(); String _password &＃61; credentials.substring(p &＃43; 1).trim(); if (!username.equals(_username) || !password.equals(_password)) unauthorized(response, "Bad credentials"); filterChain.doFilter(servletRequest, servletResponse); else unauthorized(response, "Invalid authentication token"); catch (UnsupportedEncodingException e) throw new Error("Couldn&＃39;t retrieve authentication", e); else unauthorized(response); &＃64;Override public void destroy() private void unauthorized(HttpServletResponse response, String message) throws IOException response.setHeader("WWW-Authenticate", "Basic realm&＃61;\\"" &＃43; realm &＃43; "\\""); response.sendError(401, message); private void unauthorized(HttpServletResponse response) throws IOException unauthorized(response, "Unauthorized");

使用该认证过滤器&＃xff0c;配合以下参数&＃xff0c;即可实现对 shs ui 的访问控制&＃xff1a;

//通过以下配置项开启了 shs ui 的认证 - 使用自定义认证过滤器 spark.ui.filters&＃61;org.apache.spark.deploy.yarn.YarnProxyRedirectFilter,com.hundsun.broker.BasicAuthenticationFilter spark.com.hundsun.broker.BasicAuthenticationFilter.param.username&＃61;spark spark.com.hundsun.broker.BasicAuthenticationFilter.param.password&＃61;spark spark.com.hundsun.broker.BasicAuthenticationFilter.param.realm&＃61;spark //通过以下配置项&＃xff0c;开启 shs ui 的访问控制列表 acl spark.history.ui.acls.enable&＃61;true spark.history.ui.admin.acls&＃61;spark spark.history.ui.admin.acls.groups&＃61;spark

注意在 CDH 平台中&＃xff0c;可能是由于 CM 自身启动 shs 的机制和背后配置机制等原因&＃xff0c;在 History Server 高级配置代码段中的配置项 “spark.ui.filters&＃61;org.apache.spark.deploy.yarn.YarnProxyRedirectFilter”&＃xff0c;在启动 shs 时并没有生效&＃xff0c;所以需要手动修改配置文件 spark-defaults.conf&＃xff0c;并手动通过命令行启动 shs&＃xff1a;

此时用户访问 shs ui 时需要提供认证信息&＃xff0c;只有提供了正确的用户名和密码才能访问 shs ui&＃xff08;用户名和密码通过后台参数 spark.com.hundsun.broker.BasicAuthenticationFilter.param.username/spark.com.hundsun.broker.BasicAuthenticationFilter.param.password&＃61;spark指定&＃xff0c;安全过滤器初始化时会读取这些参数&＃xff09;&＃xff1b;
此时只有使用访问控制列表中指定的用户和用户组&＃xff0c;才能查看 shs ui 中具体应用信息的详细信息&＃xff1b;

推荐阅读

kafka
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
list
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
jsp
解决 Windows Server 2016 网络连接问题

本文详细介绍了如何解决 Windows Server 2016 在使用无线网络 (WLAN) 和有线网络 (以太网) 时遇到的连接问题。包括添加必要的功能和安装正确的驱动程序。 ... [详细]

蜡笔小新 2024-11-12 00:01:44
web
基于Web的Kafka管理工具Kafkamanager首次访问Web界面的详细配置指南（附图解）

首次访问Kafkamanager Web界面时，需要对Kafka集群进行配置。这一过程相对简单，用户只需依次点击【Cluster】>【Add Cluster】，按照提示完成相关设置即可。本文将通过图文并茂的方式，详细介绍每一步的配置步骤，帮助用户快速上手Kafkamanager。 ... [详细]

蜡笔小新 2024-11-11 20:43:22
sum
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
sum
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
sum
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
sum
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
loops
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
loops
Kubernetes 控制平面与节点之间的通信机制解析

本文深入解析了 Kubernetes 控制平面（特别是 API 服务器）与集群节点之间的通信机制，并对其通信路径进行了详细分类。旨在帮助用户更好地理解和定制其安装配置，从而增强网络安全性，确保集群的稳定运行。 ... [详细]

蜡笔小新 2024-11-11 21:38:03
filter
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
filter
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
filter
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
web
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
filter
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06

mobiledu2502929697

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章